Text Preprocessing Techniques (Tokenization, Stopwords Removal)

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) Text Classification এবং Natural Language Processing (NLP) |

180

Text Preprocessing হলো যেকোনো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (NLP) প্রথম ধাপ, যার মাধ্যমে কাঁচা বা অপরিশোধিত টেক্সট ডেটাকে বিশ্লেষণযোগ্য ফর্মে রূপান্তরিত করা হয়। এটি একটি গুরুত্বপূর্ণ প্রক্রিয়া, যা মডেল তৈরির আগে ডেটার গুণগত মান উন্নত করতে সাহায্য করে। Tokenization এবং Stopwords Removal হলো টেক্সট প্রক্রিয়াকরণের দুটি গুরুত্বপূর্ণ এবং মৌলিক পদক্ষেপ।

1. Tokenization (টোকেনাইজেশন)

Tokenization হলো টেক্সট ডেটাকে ছোট ছোট অংশে (যেমন শব্দ বা বাক্য) ভাগ করার প্রক্রিয়া। এই ছোট অংশগুলোকে tokens বলা হয়। Tokenization হলো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের প্রথম এবং মৌলিক পদক্ষেপ, যেটি মেশিনের জন্য পাঠ্য বিশ্লেষণ সহজ করে তোলে।

Word Tokenization (শব্দ টোকেনাইজেশন):
টেক্সটকে শব্দের ভিত্তিতে ভাগ করা হয়। এটি প্রতিটি শব্দকে একটি আলাদা টোকেন হিসেবে চিহ্নিত করে।
- উদাহরণ:
  "I love programming." → ["I", "love", "programming"]
Sentence Tokenization (বাক্য টোকেনাইজেশন):
টেক্সটকে বাক্যের ভিত্তিতে ভাগ করা হয়। এটি প্রতিটি বাক্যকে একটি আলাদা টোকেন হিসেবে চিহ্নিত করে।
- উদাহরণ:
  "I love programming. It is fun." → ["I love programming.", "It is fun."]

Tokenization এর প্রয়োজনীয়তা:

এটি টেক্সটকে ছোট ছোট ইউনিটে ভাগ করে, যা সহজেই বিশ্লেষণ এবং মডেল তৈরির জন্য ব্যবহৃত হতে পারে।
টোকেনাইজেশন সহায়ক যখন কোনো মেশিন লার্নিং বা ডিপ লার্নিং মডেল তৈরি করা হয়, যেগুলি টেক্সটের বৈশিষ্ট্যগুলো শিখে বা বিশ্লেষণ করে।

2. Stopwords Removal (স্টপওয়ার্ড সরানো)

Stopwords Removal হলো টেক্সট থেকে এমন শব্দগুলো সরানোর প্রক্রিয়া যেগুলোর অর্থ সাধারণত কম গুরুত্বপূর্ণ বা অপাঙক্তেয়। এই ধরনের শব্দগুলি প্রায়ই সাধারণ এবং বারবার ব্যবহৃত হয়, যেমন "is", "the", "in", "at", "on", "a", "and" ইত্যাদি। এই শব্দগুলি সাধারণত টেক্সট প্রক্রিয়াকরণের সময় মডেলকে বিভ্রান্ত করতে পারে, তাই তাদের সরিয়ে ফেলা হয়।

Stopwords এর উদাহরণ:
- "is", "a", "an", "the", "of", "and", "in", "to", "for", "with" ইত্যাদি।

Stopwords Removal এর উদ্দেশ্য:

গুরুত্বপূর্ণ তথ্যের ফোকাস:
এটি এমন শব্দগুলিকে সরিয়ে দেয় যা মডেলের পারফরম্যান্সে কোনো বড় প্রভাব ফেলতে পারে না, এবং মডেলকে আরও দক্ষ করে তোলে।
কম্পিউটেশনাল দক্ষতা বৃদ্ধি:
Stopwords সরানোর মাধ্যমে কম্পিউটেশনাল খরচ কমানো যায়, কারণ এই শব্দগুলির উপর কোনো গভীর বিশ্লেষণ সাধারণত করা হয় না।

Stopwords Removal পদ্ধতি:

Pre-defined List:
একাধিক স্টপওয়ার্ডের একটি পূর্বনির্ধারিত তালিকা ব্যবহার করা হয় এবং টেক্সট থেকে এসব শব্দ সরিয়ে ফেলা হয়।
Custom List:
কিছু ক্ষেত্রে, বিশেষ করে ডোমেইন ভিত্তিক প্রয়োগে, ব্যবহারকারী তার নিজস্ব স্টপওয়ার্ড তালিকা তৈরি করে।

Tokenization এবং Stopwords Removal এর মধ্যে সম্পর্ক

Tokenization এবং Stopwords Removal একে অপরের সাথে সম্পর্কিত। প্রথমে টেক্সটকে টোকেনাইজ করা হয়, অর্থাৎ শব্দ বা বাক্যে ভাগ করা হয়, তারপর Stopwords Removal প্রক্রিয়া চলে যেখানে স্টপওয়ার্ডগুলো সরানো হয়। এই দুটি প্রক্রিয়া একসাথে মডেলের জন্য আরও পরিষ্কার এবং নির্ভুল ডেটা তৈরি করতে সহায়ক।

Python-এ Tokenization এবং Stopwords Removal উদাহরণ

Python-এ nltk (Natural Language Toolkit) লাইব্রেরি ব্যবহার করে টোকেনাইজেশন এবং স্টপওয়ার্ড রিমুভাল করা যায়।

Tokenization উদাহরণ:

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# Sample text
text = "I love programming. It is fun and exciting."

# Sentence tokenization
sentences = sent_tokenize(text)
print("Sentence Tokenization:", sentences)

# Word tokenization
words = word_tokenize(text)
print("Word Tokenization:", words)

Stopwords Removal উদাহরণ:

from nltk.corpus import stopwords

# Download the stopwords
nltk.download('stopwords')

# Define stopwords
stop_words = set(stopwords.words('english'))

# Example text
text = "This is an example sentence, showing off the stop words filtration."

# Tokenize text into words
words = word_tokenize(text)

# Remove stopwords
filtered_words = [word for word in words if word.lower() not in stop_words]
print("Filtered Words:", filtered_words)

সারাংশ

Tokenization হলো টেক্সট ডেটাকে ছোট ছোট অংশে ভাগ করার প্রক্রিয়া, যাতে ডেটা সহজে বিশ্লেষণযোগ্য হয়।
Stopwords Removal হলো টেক্সট থেকে অপ্রয়োজনীয় সাধারণ শব্দ সরানোর প্রক্রিয়া, যাতে মডেল গুরুত্বপূর্ণ তথ্যের উপর মনোযোগ দিতে পারে।
এই দুটি প্রক্রিয়া মেশিন লার্নিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) মডেল তৈরির জন্য অপরিহার্য।

Content added By

Md Azizur Rahman

TF-IDF এবং Bag of Words মডেল Sentiment Analysis এবং Text Classification Scikit-Learn এর CountVectorizer এবং TfidfVectorizer